Warning: mkdir(): No space left on device in /var/www/tg-me/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/dsproglib/--): Failed to open stream: No such file or directory in /var/www/tg-me/post.php on line 50
Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение | Telegram Webview: dsproglib/6422 -
Telegram Group & Telegram Channel
📌 Какой вектор лучше: Dense vs Multi-vector embeddings

Раньше хватало одного эмбеддинга на документ. Сейчас — этого уже мало. Нужна структура.

📍 Dense-векторы (single vector per doc):
— быстрые
— экономные по памяти
— слабо улавливают контекст
— «плавают» при сложных запросах
👉 подходят для простого поиска

📍 Multi-vector (late interaction):
— вектор на каждый токен
— сравниваются токены запроса и документа напрямую
— лучше качество на сложных задачах
— выше требования к хранилищу
👉 баланс между скоростью и точностью

📍 Late interaction ≈ золотая середина:
— быстрее, чем cross-encoders
— точнее, чем dense-векторы

📍 Примеры моделей:
— ColBERT — для текстов
— ColPali — multimodal: текст + PDF как картинки
— ColQwen — как ColPali, но на Qwen2 (Apache 2.0, компактнее)

Если вы работаете с PDF-документами (таблицы, графики, изображения) — мультивекторные модели решают большинство проблем без «чaнкинга» и костылей.

Библиотека дата-сайентиста #буст
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/dsproglib/6422
Create:
Last Update:

📌 Какой вектор лучше: Dense vs Multi-vector embeddings

Раньше хватало одного эмбеддинга на документ. Сейчас — этого уже мало. Нужна структура.

📍 Dense-векторы (single vector per doc):
— быстрые
— экономные по памяти
— слабо улавливают контекст
— «плавают» при сложных запросах
👉 подходят для простого поиска

📍 Multi-vector (late interaction):
— вектор на каждый токен
— сравниваются токены запроса и документа напрямую
— лучше качество на сложных задачах
— выше требования к хранилищу
👉 баланс между скоростью и точностью

📍 Late interaction ≈ золотая середина:
— быстрее, чем cross-encoders
— точнее, чем dense-векторы

📍 Примеры моделей:
— ColBERT — для текстов
— ColPali — multimodal: текст + PDF как картинки
— ColQwen — как ColPali, но на Qwen2 (Apache 2.0, компактнее)

Если вы работаете с PDF-документами (таблицы, графики, изображения) — мультивекторные модели решают большинство проблем без «чaнкинга» и костылей.

Библиотека дата-сайентиста #буст

BY Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение




Share with your friend now:
tg-me.com/dsproglib/6422

View MORE
Open in Telegram


Библиотека data scientist’а | Data Science Machine learning анализ данных машинное обучение Telegram | DID YOU KNOW?

Date: |

The lead from Wall Street offers little clarity as the major averages opened lower on Friday and then bounced back and forth across the unchanged line, finally finishing mixed and little changed.The Dow added 33.18 points or 0.10 percent to finish at 34,798.00, while the NASDAQ eased 4.54 points or 0.03 percent to close at 15,047.70 and the S&P 500 rose 6.50 points or 0.15 percent to end at 4,455.48. For the week, the Dow rose 0.6 percent, the NASDAQ added 0.1 percent and the S&P gained 0.5 percent.The lackluster performance on Wall Street came on uncertainty about the outlook for the markets following recent volatility.

How To Find Channels On Telegram?

There are multiple ways you can search for Telegram channels. One of the methods is really logical and you should all know it by now. We’re talking about using Telegram’s native search option. Make sure to download Telegram from the official website or update it to the latest version, using this link. Once you’ve installed Telegram, you can simply open the app and use the search bar. Tap on the magnifier icon and search for a channel that might interest you (e.g. Marvel comics). Even though this is the easiest method for searching Telegram channels, it isn’t the best one. This method is limited because it shows you only a couple of results per search.

Библиотека data scientist’а | Data Science Machine learning анализ данных машинное обучение from sa


Telegram Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
FROM USA